import time

import scrapy


class BizhiSpider(scrapy.Spider):
    name = "bizhi"
    allowed_domains = ["zol.com.cn"]
    start_urls = ["https://desk.zol.com.cn/meinv/"]

    def parse(self, resp, **kwargs):
        # 开启第一次爬取代码点
        # 获取到页面信息之后 获取想要的数据
        img_src_list = resp.xpath("//ul[@class='pic-list2  clearfix']/li/a/@href").extract()
        for img_sr in img_src_list:
            if img_sr.endswith(".exe"):
                continue
            # 进行url拼接，拼接有两种办法，使用字符串的办法，还有就是使用urllib库提供的方法urljoin
            # print("===>>>", urljoin(url, img_sr))
            #  使用scrapy原生的方法
            href = resp.urljoin(img_sr)
            print("href=======>>>>>>>>>", href)
            # 获取到链接之后再次进行读取url
            yield scrapy.Request(href, method='get', callback=self.tupianpian)


    def tupianpian(self, resp, **kwargs):
        img_path = resp.xpath("//img[@id='bigImg']/@src").extract_first()
        yield {
            "data": time.time(),
            "img_path": img_path
        }
